Oplysninger i statistikprodukter, der kan henføres til enkeltpersoner, skal diskretioneres. Kravet til diskretionering er afhængig af produktets anvendelse og opbevaring samt eventuelle restriktioner vedrørende adgangen til oplysningerne. Alle personlige oplysninger anses for værende fortrolige, og det indgår ikke i vurderingen, om de er mere eller mindre følsomme. 

 

Som udgangspunkt er et statistikprodukt karakteriseret ved, at det er af-identificeret. Det betyder, at der ikke indgår navn, personnummer eller andre oplysninger, som muliggør direkte identifikation. Der er således gennemført en første generel diskretionering. Problemstillingen her drejer sig om, i hvilket omfang der skal gennemføres yderligere diskretionering for at imødegå muligheden for indirekte identifikation.

 

3.1. Statistiktabeller

Man må ikke kunne opnå ny viden om enkeltpersoners forhold fra en statistiktabel. Diskretionering anvendes i et omfang, som sikrer, at noget sådant ikke er muligt. Opmærksomheden retter sig specielt mod forekomsten af enkeltobservationer i en tabelcelle. Hvis man her kan identificere en person på grundlag af tabellens oplysninger, og identifikationen kun er mulig, hvis man allerede har kendskab til alle oplysningerne, så opnås der ikke ny viden, og yderligere diskretionering vil ikke umiddelbart være påkrævet. Er identifikation mulig på grundlag af en begrænset del af tabellens oplysninger, så kan der typisk opnås ny viden, og yderligere diskretionering skal derfor gennemføres. 

 

Hvis en tabel er opgjort efter fx køn, alder, bopæl, uddannelse og indkomst, og man med den anvendte detaljeringsgrad på de fire førstnævnte variabler kan identificere personen, så opnås der ny viden om den femte variabel, indkomst. Udelades indkomst fra tabellen, og identifikation kræver kendskab til alle de andre oplysninger om en person, så opnås der ikke ny viden.  

 

Kravet til diskretionering af oplysninger i en statistiktabel afhænger af de anvendte variables identifikationskraft og tabellens variabelkombinationer.

 

En variabels identifikationskraft er udtryk for, hvor stærkt variablen i sig selv eller i kombination med andre variable kan medvirke til identifikation af en person. Den er betinget af flere forhold.

 

-          Variabelværdiernes varierende genkendelighed er af afgørende betydning. Geografisk område, køn og alder er eksempler på let genkendelige oplysninger, mens indkomst og forbrug af en bestemt vare næppe kan bidrage meget til identifikation, hvis ekstreme værdier ikke fremgår.

-          Variablenes detaljeringsgrad vil alt andet lige medvirke til at forstærke muligheden for genkendelighed. Det gælder således også ved opgørelser efter ekstreme variabelværdier.

-          Observationernes fordeling på variablens værdier er også en faktor i denne sammenhæng. En ligelig fordeling vil have mindre identifikationskraft end en skæv fordeling. 

 

Anvendelse af variabelkombinationer i en tabel øger umiddelbart muligheden for genkendelse af enkeltpersoner og for at opnå ny viden om disse. Det afhænger af de anvendte variables identifikationskraft, hvor meget den øges, men genkendeligheden kan begrænses gennem en samlet vurdering og tilpasning af antal variable og detaljeringsgraden for disse. Hvis der er en indirekte sammenhæng mellem flere tabeller i form af gentagne variable, skal genkendeligheden vurderes for samtlige tabeller under ét. Afgrænsning af tabelindhold til at omfatte en given delpopulation tilføjer en ekstra dimension til tabellen. Variabelkombinationer over tid kan også medvirke til genkendelse. 

 

Det har været og er fortsat genstand for megen diskussion, hvordan man gennemfører tilstrækkelig diskretionering, og samtidig minimerer den uundgåelige forringelse af statistikproduktets kvalitet og værdi. Følgende metoder kan anvendes: 

 

a. I personstatistikken sker det mest enkelt ved at gruppere variabelværdier til et niveau, hvor genkendelse ikke er mulig i den givne sammenhæng. Specielt trunkering (afskæring af yderværdier) vil ofte være påkrævet for at undgå isolerede observationer for ekstreme variabelværdier. 

b. En tabel med kombination af mange variabler kan opdeles i flere tabeller. Hvis det sker, skal det sikres, at der ikke er utilsigtede indirekte links via variabelværdier mellem tabellerne. 

c. Endelig kan, hvis ikke andet er muligt, observationer udelades fra tabellen. I så fald kan det være nødvendigt med konsekvensudeladelser af andre observationer for at undgå en mulighed for at deducere sig frem til den udeladte observation. 

 

Med aggregeringen af mikrodata til en tabel er den første diskretionering gennemført. Det er vanskeligt at udstikke håndfaste regler for, hvornår yderligere diskretionering er nødvendig. Tabelceller med én observation anses almindeligvis for værende kritiske, men det er de som sagt kun, hvis der kan udledes ny viden om den pågældende persons forhold fra tabellens oplysninger.   Problemstillingen kan belyses ved et eksempel. Af en tabel vedrørende befolkningen i et givet geografisk område fremgår det, at der er en mand, han er skolelærer, er 50 år gammel, og han har en indkomst på 300.000 kr. Her skal der diskretioneres. Tabellen kunne også vise, at der i området er 2 mænd, de er begge skolelærere og 50 år gamle og i gennemsnit tjener 350.000 kr. I dette tilfælde kan den ene skolelærer regne sig frem til, hvad den anden tjener. Her skal der også diskretioneres.

 

Man kunne ud fra eksemplet konkludere, at der skal være mindst tre observationer i en tabelcelle. En generel regel om dette vil ikke være hensigtsmæssig. Spørgsmålet må vurderes individuelt ud fra et nøje kendskab til de anvendte variablers identifikationskraft og de variabelkombinationer, som indgår. 

 

3.2 Ansvar for sikring af tilstrækkelig diskretionering

Det er Statistikchefens ansvar at fastlægge retningslinjer og den enkelte medarbejders pligt at sikre tilstrækkelig diskretionering i alle Grønlands Statistiks statistikprodukter.

 

Statistikbanken indeholder Grønlands Statistiks mest detaljerede offentliggjorte tabeller.

 

For personstatistikken gælder:

Køn, 1-års aldersklasser, fødested og bopælslokalitet er let genkendelige kendetegn, der ofte ønskes knyttet til en statistik om personer, uanset om det drejer sig om uddannelse, beskæftigelse, indkomst, sociale forhold mm.

 

I lokaliteter med få hundrede indbyggere vil de let genkendelige kendetegn hurtigt føre til at oplysninger fra Statistikbanken vil afsløre information om enkeltpersoner, hvilket er et problem, også selv om disse informationer vil være almindeligt kendt.

 

Statistikbanktabeller fordeler ofte befolkningen på køn, fødested, bopæl og 1-års aldersklasser. Det er afgørende for statistikkens anvendelighed at kunne fordele oplysninger på det detaljeringsniveau.

 

Når en tabel skal belyse andre emner grupperes eller udelades mindst en af disse 4 dimensioner for at mindske den lette genkendelighed. Fx fordeles civilstand og statsborgerskab ikke på lokalitet.

 

Især er det i lokalitetsfordelte tabeller, at oplysninger vil give anledning til diskretionering.

 

Analysetabeller, som kombinerer variable fra flere emner, skal vurderes ud fra ovenstående retningslinjer. Netop Statistikbankens manglende kombination af variabler og detaljeringsgrad kan være begrundelse for ønske om forskeradgang til mikrodata eller serviceopgaver.

 

3.3. Dataindsamling

Hovedparten af data til personstatistik indhentes fra administrative registre i henhold til Lov om Grønlands Statistik. 

 

Der må ikke meldes tilbage til en leverandør af administrative data om individuelle fejl i modtagne data. Grønlands Statistik må ikke komme til at medvirke ved afgørelsen af konkrete enkeltsager i det administrative system. Tilbagemelding må kun ske, hvis der er tale om generelle systematiske fejl i materialet, og det skal da ske på en sådan måde, at den uheldige sideeffekt undgås. Hvis det ikke blot drejer sig om fejl opstået i forbindelse med dannelsen af udtræk til Grønlands Statistik, så kan en tilbagemelding om en konstateret systematisk fejl måske i enkelte tilfælde have konsekvenser for en række personer, men her er det afgørende, at der er tale om fejl opstået i det administrative system, som senere vil vise sig alligevel, og ikke om fejl i individuelle indberetninger til systemet. Det er sidstnævnte fejltype Grønlands Statistik skal undgå at gøre opmærksom på. 

 

3.4. Personstikprøver til forskningsprojekter

Grønlands Statistik kan udtrække stikprøver til brug for forskningsprojekter.

 

En simpel tilfældig stikprøve af personer kan udtrækkes fra Befolknings-statistikregistret, så personnummer kan videregives til offentlige myndigheder, der i forvejen har adgang til at få lavet stikprøver hos CPR. Det sker på følgende betingelser:

 

-          Dataindholdet må kun omfatte oplysninger, som Grønlands Statistik har modtaget fra CPR.

-          Data må kun anvendes til den aftalte undersøgelse.

-          Datatilsynet skal have godkendt Grønlands Statistiks videregivelse. Den offentlige myndighed, der overtager ansvaret for de modtagne data, anmelder selv behandlingen af disse data. Der er udarbejdet en særlig kontrakt til denne service.

 

3.4.1. Praktisk fremgangsmåde

a. Grønlands Statistik ansøger om og får Datatilsynets tilladelse til videregivelse af stikprøvens personnumre.  

b. Stikprøven udtrækkes og en liste med personnumre udleveres til projektet.

c. Projektet får påført aktuelle adresse- og navneoplysninger fra CPR/regional kopi fx Kimik-it.

 

Efter dataindsamling kan de indsamlede data sammenkobles med data fra Grønlands Statistik under vilkår som gælder for forskningsordningen.

 

3.5. Brugeren indleverer egne data til serviceopgave

Hvis brugeren indleverer data til en serviceopgave med henblik på at samkøre disse med data fra Grønlands Statistiks registre, så skal dataindsamlingen og videregivelsen til Grønlands Statistik være anmeldt til Datatilsynet af opgavebestilleren. Dokumentation skal fremsendes til Grønlands Statistik inden opgaven gennemføres. De øvrige vilkår, herunder tilgang til mikrodata, følger reglerne for forskeradgang i Grønlands Statistik samt reglerne for diskretionering af aggregeret statistik.

 

En egentlig udlevering af data til brugeren kan kun ske i form af tabeller aggregeret til et niveau, hvor identifikation af enkeltindivider ikke er mulig.